SoSe2022

Folienübersicht

Signifikanztests

Was sind Signifikanztests?

  • Zielen auf eine Entscheidung über die Beibehaltung oder Ablehnung einer statistischen Hypothese ab.
  • Die Hypothese bezieht sich immer auf einen statistischen Kennwert.
  • Je nachdem, ob der Stichprobenkennwert in den Annahme- oder Ablehnungsbereich fällt (also größer oder kleiner als der kritischen Werte ist), wird die Hypothese als richtig oder nicht zutreffend angesehen.

Vorgehensweise

8 Schritte - ausgehend von einer Forschungshypothese

  1. Wahl der Statistik, welcher die Daten bezogen auf die Forschungshypothese beschreibt (z.B. Mittelwert oder Varianz).
  2. Formulierung der Nullhypothese \(H_0\) und der (logisch) entgegengesetzten Alternativhypothese \(H_A\) bzw. \(H_1\) → einseitig, gerichtet oder zweiseitig, ungerichtet
  3. Erhebung empirischer Daten und Überprüfung der Stichprobenverteilung.
  4. Finale Wahl des statistischen Test und Berechnung der entsprechenden Teststatistik.
  5. Festlegung der Irrtumswahrscheinlichkeit (Signifikanzniveau \(\alpha\)) → üblicherweise 5%.
  6. Festlegung des Annahme- und Ablehnungsbereich mit dem kritischen Wert aus der Prüfverteilung (in Abhängigkeit vom Signifikanzniveau und den Freiheitsgraden).
  7. Entscheidung \(H_0\) beizubehalten oder abzulehnen.
  8. Zusammenfassung des Testergebnis bezogen auf die eigentliche Forschungshypothese.

Wahl der Statistik

Schritt 1

Beispiel einer Forschungshypothese

Die intraspezifische Streuung des Zugverhaltens ist bei Buchfinken kleiner als bei der Mönchsgrasmücke.

Buchfink

Mönchsgrasmücke

Zu vergleichender Parameter bzw. Kennwert

Die Varianz \(\sigma^2\) bzw. \(s^2\)

Formulierung der Hypothesen

Schritt 2

Die Alternativhypothese muss immer eine Effektgröße enthalten (‘Es gibt keinen Unterschied’ kann daher keine \(H_A\) sein).

Zweiseitig (Mittelwertvergleich)

  • \(H_A: \mu_1 \neq \mu_2\)
  • \(H_0: \mu_1 = \mu_2\)

Einseitig (Mittelwertvergleich)

  • \(H_A: \mu_1 > \mu_2\) bzw. \(\mu_1 < \mu_2\)
  • \(H_0: \mu_1 \leq \mu_2\) bzw. \(\mu_1 \geq \mu_2\)

Beispiel

  • Die Gesänge von Meisen in der Stadt und auf dem Land unterscheiden sich in ihrer Lautstärke (zweiseitig).
  • Kohlmeisen in der Stadt singen lauter als auf dem Land (einseitig).

Formulierung der Hypothesen

Beispiel Zugverhalten

Die intraspezifische Streuung des Zugverhaltens ist bei Buchfinken kleiner als bei der Mönchsgrasmücke.

Buchfink

Mönchsgrasmücke

Hypothesen

  • \(H_A: \sigma_{Buchfink}^2 < \sigma_{Mönchsgrasmücke}^2\)
  • \(H_0: \sigma_{Buchfink}^2 \geq \sigma_{Mönchsgrasmücke}^2\)

Datenerhebung und -überprüfung

Schritt 3

Beispiel Zugverhalten

Kenngröße Buchfink Mönchsgrasmücke
Mittelwert 1800km 3000km
Standardabweichung s ±900km ±1000km
Stichprobengröße n 20 30



Wahl des statistischen Test

Schritt 4

Folgende grundlegende Fragen müssen beantwortet werden:

  1. Welches Skalenniveau liegt vor (nominal, ordinal, metrisch)?
  2. Wie viele Stichproben sollen verglichen werden (1, 2, ≥2)?
  3. Was soll getestet werden (Abweichungen von einer Verteilung, einer erwarteten Häufigkeitsverteilung, einem Erwartungswert)?
  4. Ermöglicht die Stichprobenverteilung die Anwendung parametrischer Verfahren, d.h. sind die Daten normal verteilt (und Varianzhomogen) ( Schritt 3)?

Wahl des statistischen Test

Übersicht klassischer Tests

Signifikanzniveau

Schritt 5

oder auch Irrtumswahrscheinlichkeit \(\alpha\)

  • Wahrscheinlichkeit für die Ablehnung der Nullhypothese, obwohl diese zutrifft (’bedingte Wahrscheinlichkeit, Fehler 1. Art).
  • In der Statistik ist ein Ergebnis dann signifikant, wenn es unwahrscheinlich ist, dass es zufällig aufgetreten ist, vorausgesetzt, eine angenommene Nullhypothese ist wahr.
  • Wenn das beobachtete Signifikanzniveau klein genug ist, wird die Nullhypothese verworfen.
  • Übliche Signifikanzwerte:
    • Signifikant: p ≤ 0.05
    • Hoch signifikant: p ≤ 0.01
    • Höchst signifikant: p ≤ 0.001
    • Schwach signifikant: 0.05 ≤ p < 0.01
    • Schwach nicht signifikant: 0.1 ≤ p < 0.05

Statistische Fehler 1. und 2. Art

Fehler 1. Art (\(\alpha\))

  • \(H_A\) wird angenommen obwohl \(H_0\) richtig ist, d.h. wird fälschlicherweise verworfen obwohl nur zufällige Unterschiede vorhanden sind.
  • Das sog. Risiko 1. Art is somit gleich der Irrtumswahrscheinlichkeit

Fehler 2. Art (\(\beta\))

  • Es werden keine signifikanten Unterschiede erkannt, obwohl die \(H_0\) falsch ist, d.h. die Unterschiede werden als zufällig interpretiert.
  • Bei vorgegebenen n wird wird \(\beta\) umso größer, je kleiner \(\alpha\) festgelegt wird.
Entscheidung \(H_0\) trifft zu \(H_0\) trifft nicht zu
\(H_0\) wird nicht abgelehnt Richtige Entscheidung; kein Effekt nachgewiesen \(\beta\)-Fehler; vorhandenen Effekt nicht nachgewiesen
\(H_0\) wird abgelehnt \(\alpha\)-Fehler; Effekt nachgewiesen, den es nicht gibt Richtige Entscheidung; vorhandenen Effekt nachgewiesen

Berechnung von β

p

Eine kurze Demonstration zum Zusammenhang

Einflussgrößen von β

  • Differenz zwischen \(H_0\) und \(H_A\) (engl.: effect size) → je größer die Differenz, desto kleiner wird die \(\beta\)-Wahrscheinlichkeit.
  • Wahl des Signifikanzniveaus → je kleiner \(\alpha\) desto größer wird \(\beta\), da sich die Verwerfungsregion weiter von \(H_0\) entfernt.
  • Genauigkeit des geschätzten Parameters → abhängig von Stichprobengröße
  • Beziehung zwischen \(\alpha\), \(\beta\), Effekt- und Probengrößen relativ komplex.
    • Zielorientierte Versuchsplanung wichtig!
    • Zum Beispiel kann mittels Effektgröße, Teststärke, und den festgelegten \(\alpha\) und \(\beta\) Werten auch der Stichprobenumfang ermittelt werden. Dazu aber später mehr.
    • Konsequenzen Fehler 1. und 2. Art durchdenken → Was ist vorzuziehen?

Wann wird welcher Fehler vorgezogen?

Medizinische oder pharmazeutische Studien

Hier würden viele lieber einen Fehler 2. Art als einen Fehler 1. Art begehen:

  • Die Ablehnung einer wahren \(H_0\) führt dazu, dass wir unsere Alternativhypothese akzeptieren.
  • Die Beibehaltung der \(H_0\) führt dazu, dass wir bei neuen Versuchen wieder zu unseren Beobachtungen zurückkehren und weiter forschen → es wurde nichts verworfen.

Umweltstudien

Hier wäre es als Vorsichtsmaßnahme besser, einen Fehler 1. Art zu machen:

  • Die Annahme, dass es keine Effekte gibt, wenn es tatsächlich welche gibt (\(\beta\)-Fehler), ist viel gefährlicher als die Konsequenz der Annahme, dass es Effekte gibt (und entsprechende Maßnahmen ergriffen werden müssen), wenn es wirklich keine Effekte gibt (\(\alpha\)-Fehler).

Interpretation von p-Werten

Was denken einige Statistiker über Signifikanz?

It is very bad practice to summarize an important investigation solely by a value of P.

Blind adherence to the 0.05 level denies any consideration of alternative strategies, and it is a serious impediment to the interpretation of data ( e.g. 0.049 is significant, but 0.051 is not significant).

Scientist care about whether a result is statistically significant, but they should care much more about whether it is meaningful.

Festlegung des Annahme- und Ablehnungsbereich

Schritt 6

Der statistische Test liefert Dir eine Teststatistik (T) und eine Wahrscheinlichkeit (p-Wert) basierend auf dessen Prüfverteilung, dass das statistische Ergebnis so extrem ausfällt wie das beobachtete, wenn die Nullhypothese wahr wäre (nach der z.B. zwei Stichproben zur gleichen Grundgesamtheit gehören).

Zusammenfassung des Signifikanztests

Schritt 8

Bei den klassischen Tests sollte immer die Teststatistik, der bzw. die Freiheitsgrade (für die Prüfverteilung), und der p-Wert angegeben werden:

Testauswahl

Auswahl des richtigen Test

Zwei große Gruppen von klassischen Tests

Parametrische Tests

  • Verteilungsabhängig
  • Arbeiten mit \(\bar{X}, s^2, s\)
  • Nur für metrische Daten
  • Annahmen:
    1. Unabhängigkeit (außer gepaarter t-Test)
    2. Varianzhomogenität (gleiche Varianzen)
    3. Normalität (Normalverteilung)
  • Tests:
    • F-Test
    • t-Test für 1 und 2 Stichproben
    • Varianzanalyse (ANOVA)
    • Kovarianzanalyse (ANCOVA)
    • Lineare Regression
    • Pearsons Produkt-Moment-Korrelationskoeffizient

Nicht-Parametrische Tests

  • Verteilungsfrei (keine Normalverteilung erforderlich)
  • Arbeiten mit Median und Rängen
  • Für metrische, ordinale, und nominale Daten
  • Teststärke ist allgemein niedriger
  • Nicht geeignet, wenn das Design komplex ist
  • Tests:
    • Mann-Whitney U-Test
    • Wilcoxon-Vorzeichen-Rang-Test
    • Chi-Quadrat-Tests
    • Kruskal-Wallis-Test
    • Friedman-Test
    • Rangkorrelation (z.B. Spearman, Kendall)

Alternative zu nicht-parametrischen Tests

Monte Carlo Randomisierung oder Permutationstests

  • Verwenden keine theoretischen Prüfverteilungen (wie t, F).
  • Die Verteilung der Teststatistik basiert allein auf den Daten der Stichprobe.
  • Prinzip das gleiche wie beim Bootstrap-Verfahren für Konfidenzintervalle:
    • Die Stichprobe wird als ‘Pseudopopulation’ genutzt, aus der wiederholt Stichproben gezogen werden.
    • Aus den wiederholten Stichproben wird die Teststatistik jeweils berechnet.
    • Anschl. wird die Teststatistik der ursprünglichen Stichprobe mit der Teststatistikverteilung aus den randomisierten Stichproben verglichen und der p-Wert berechnet.
  • Methodik ist allerdings schwierig bei komplexen Modellen mit Wechselwirkungen.

Teststärke oder Trennschärfe eines Tests

  • Auch Sensitivität, Güte, Leistung oder Macht (im Englischen Power) genannt.
  • Gibt die Fähigkeit eines Tests an, Unterschiede (Effekte) zu erkennen, wenn sie in Wirklichkeit vorhanden sind.
  • Ist definiert als 1-\(\beta\) → repräsentiert die Wahrscheinlichkeit, dass der Test eine falsche Nullhypothese ablehnt bzw. dass er keinen Fehler 2. Art macht.
  • Je höher die Teststärke ist, desto größer ist die Chance, ein statistisch signifikantes Ergebnis zu erhalten, wenn die Nullhypothese falsch ist.
  • Hängt ab von:
    • Wahl für \(\alpha\) / Effektgröße / Stichprobengröße / Varianzen / Art des Tests
    • → Je größer die Stichprobe, desto geringer die Varianz, desto höher die Teststärke.
  • Die sog. Power-Analyse kann ein nützliches Werkzeug für die Planung eines Experiments und die Schätzung der Stichproben- und Effektgröße sein.

Überprüfung der Testannahmen bei metrischen Daten

Auf Normalverteilung testen (Anpassungstest)

  • Shapiro-Wilk-Test - shapiro.test():
    • Vorteil: Gute Teststärke über einen weiten Bereich von Nicht-Normalverteilungstypen und Stichprobengrößen (daher bei N < 50 vorzuziehen).
    • Nachteil: Weniger robust wenn Autokorrelation auftritt.
  • Kolmogorov-Smirnov-Test - ks.test():
    • Vorteil: Verteilungsfrei, d.h. es kann auf verschiedenste theoretische Verteilungen getestet werden. Im Falle von Autokorrelation robuster als S-W-Test.
    • Nachteil: Geringere Teststärke (die \(H_0\) wird seltener korrekt abgelehnt).
  • Anderson-Darling A2:
    • Ähnlicher Test wie K-S-Test, mit Korrektur für den Fall, dass Mittelwert/Varianz unbekannt sind und geschätzt werden müssen.

Normalität: Shapiro-Wilk-Test

Bsp. Zugverhalten

Kennwert: \(\mu\), \(\sigma^2\) bzw. \(\bar{X}\) und \(s^2\)
H0: \(X\) ist normalverteilt
HA: \(X\) ist nicht normalverteilt
Teststatistik: W
alpha: 5%
p-Wert: Teststatistik W wird mit einem kritischen Wert für den Ablehnungsbereich (aus der Verteilung der Teststatistik) verglichen.
shapiro.test(x = bf) # Buchfink
    Shapiro-Wilk normality test

data:  bf
W = 0.95594, p-value = 0.4663
shapiro.test(x = mgm) # Moenchsgrasm.
    Shapiro-Wilk normality test

data:  mgm
W = 0.97279, p-value = 0.6181
  • \(H_0\) kann in beiden Tests nicht abgelehnt werden.
  • Beide Stichproben sind normalverteilt (W = 0.96, p = 0.5 bzw. W = 0.97, p = 0.6).

Normalität: Kolmogorov-Smirnov-Test

Bsp. Zugverhalten

Kennwert: \(\mu\), \(\sigma^2\) bzw. \(\bar{X}\) und \(s^2\)
H0: \(F_X = F_0\) (Verteilungsfunktion von \(X\) ist \(F_0\))
HA: \(F_X \neq F_0\)
Teststatistik: D
alpha: 5%
p-Wert: Teststatistik D wird mit einem kritischen Wert für den Ablehnungsbereich (aus der Verteilung der Teststatistik) verglichen.
# Hier muss die zu prüfende Verteilung
# und dessen Parameter übergeben werden:
ks.test(bf, "pnorm", 
  mean = mean(bf), sd = sd(bf))
    One-sample Kolmogorov-Smirnov test

data:  bf
D = 0.11756, p-value = 0.9152
alternative hypothesis: two-sided
ks.test(mgm, "pnorm", 
  mean = mean(mgm), sd = sd(mgm))
    One-sample Kolmogorov-Smirnov test

data:  mgm
D = 0.092798, p-value = 0.9372
alternative hypothesis: two-sided
  • \(H_0\) kann in beiden Tests nicht abgelehnt werden.
  • Beide Stichproben sind normalverteilt (D = 0.12 bzw. D = 0.09, p > 0.5).

Auf Varianzhomogenität testen

  • F-Test (parametrisch) - var.test():
    • Der F-Test prüft, ob zwei Stichprobenvarianzen gleich sind, indem er das Verhältnis beider Varianzen vergleicht (der F-Wert) → wenn die Varianzen gleich sind, gilt F = 1.
    • Dieser Test ist das einfachste Verfahren, um die Annahmen der Varianzhomogenität bei zwei Stichproben zu prüfen.
    • Nachteil: Daten sollten normal verteilt sein.
  • Bartletts Test (parametrisch) - bartlett.test():
    • Vergleicht Varianzen von zwei und mehr Stichproben.
    • Nachteil: Auch hier wird Normalverteilung der Daten vorausgesetzt.
  • Levene-Test - car::leveneTest():
    • Vergleicht Varianzen von zwei und mehr Stichproben.
    • Vorteil: Setzt keine Normalverteilung der Daten voraus.

Zurück zu unserer Forschungshypothese..

Die intraspezifische Streuung des Zugverhaltens ist bei Buchfinken kleiner als bei der Mönchsgrasmücke.

Buchfink

Mönchsgrasmücke
Kenngröße Buchfink Mönchsgrasmücke
Mittelwert 1800km 3000km
Standardabweichung s ±900km ±1000km
Stichprobengröße n 20 30

Geeigneter Test: F-Test zum Vergleich von Varianzen

Kennwert: \(\sigma^2\) bzw. \(s^2\)
H0: \(\sigma^2_{BF} = \sigma^2_{MGM}\) bzw. \(F=1\)
HA: \(\sigma^2_{BF} \neq \sigma^2_{MGM}\) bzw. \(F \neq 1\)
Voraussetzung: Erfüllt (Daten sind normal verteilt)
Teststatistik: \(F = \frac{\text{größeres}~s_1^2}{\text{kleineres}~s_2^2}\)*
alpha: 5%
FG: FG1 = n1-1; FG2 = n2-1
p-Wert: Der F-Wert wird mit dem \(F_{krit}\) aus der F-Verteilung verglichen.

*Die größere Varianz kommt in den Zähler. Damit ist F immer ≥ 1.

Manuelle Berechnung

s1_mgm <- 1000^2 # groessere Stichprobenv.
s2_bf <- 900^2 # kleinere Stichprobenv.
(f_val <- s1_mgm/s2_bf)
[1] 1.234568
#  krit. F (bei n1=30, n2=20):
qf(p = 0.95, df1 = 29, df2 = 19) 
[1] 2.077214
# p verdoppeln fuer 2seitige Hypothese:
2*pf(q = f_val, df1 = 29, df = 19, 
  lower.tail = FALSE)
[1] 0.6409985
  • \(H_0\) kann nicht abgelehnt werden.
  • Die intraspezifische Streuung des Zugverhaltens bei Buchfinken unterscheidet sich nicht signifikant von der bei Mönchsgrasmücken (\(F_{(29;19)} = 1.23\), p = 0.64).

Geeigneter Test: F-Test zum Vergleich von Varianzen

var.test()

Automatische Berechnung mit der built-in Funktion

var.test(
  x = mgm, # Stichprobe mit groesserer Varianz 
  y = bf # Stichprobe mit kleinerer Varianz
)
    F test to compare two variances

data:  mgm and bf
F = 1.2346, num df = 29, denom df = 19, p-value = 0.641
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.5139872 2.7546590
sample estimates:
ratio of variances 
          1.234568 

Was aber bei mehr als zwei Stichproben?

Unterscheidet sich die Varianz dieser 3 Vogelarten?

Buchfink

Grünfink

Mönchsgrasmücke
Kenngröße Buchfink Grünfink Mönchsgrasmücke
Mittelwert 1800km 1950km 3000km
Standardabweichung s ±900km ±400km ±1000km
Stichprobengröße n 20 10 30

Bartlett- und Levene-Test bei > 2 Stichproben

Für beide Tests müssen die Daten in einem data frame im langen Format sein. Die kategoriale Variable (die Art) sollte als Faktor definiert sein (nicht als Zeichenkette):

str(zug)
'data.frame':   60 obs. of  2 variables:
 $ art   : Factor w/ 3 levels "Buchfink","Grünfink",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ laenge: num  698 1619 743 1065 1178 ...
bartlett.test(x = zug$laenge, g = zug$art)
    Bartlett test of homogeneity of variances

data:  zug$laenge and zug$art
Bartlett's K-squared = 7.8288, df = 2, p-value = 0.01995
car::leveneTest(y = zug$laenge, group = zug$art)
Levene's Test for Homogeneity of Variance (center = median)
      Df F value  Pr(>F)  
group  2   3.157 0.05008 .
      57                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Beim Bartlett-Test kann die \(H_0\) abgelehnt werden, beim Levene-Test nicht. Beide Tests zeigen aber p-Werte um das Signifikanzniveau, was darauf hindeutet, dass Unterschiede nur schwach signifikant sind (Bartlett’s \(K^2\) = 7.8, p = 0.02 bzw. Levene’s F = 3.2, p = 0.05).

Your turn …

Quiz 1 zum Nachmachen

Kelchblattlänge in iris

shapiro.test(iris$Sepal.Length[iris$Species=="setosa"])
    Shapiro-Wilk normality test

data:  iris$Sepal.Length[iris$Species == "setosa"]
W = 0.9777, p-value = 0.4595
shapiro.test(iris$Sepal.Length[iris$Species=="versicolor"])
    Shapiro-Wilk normality test

data:  iris$Sepal.Length[iris$Species == "versicolor"]
W = 0.97784, p-value = 0.4647
shapiro.test(iris$Sepal.Length[iris$Species=="virginica"])
    Shapiro-Wilk normality test

data:  iris$Sepal.Length[iris$Species == "virginica"]
W = 0.97118, p-value = 0.2583

Quiz 2 zum Nachmachen

Kelchblattlänge in iris

bartlett.test(x = iris$Sepal.Length, g = iris$Species)
    Bartlett test of homogeneity of variances

data:  iris$Sepal.Length and iris$Species
Bartlett's K-squared = 16.006, df = 2, p-value = 0.0003345

Übungsaufgabe

Übungen aus…

Kapitel 5 - Einführung in Hypothesentests


  • R Notebook-Skripte
    • DS2_05_Übungen.Rmd
    • DS2_05_Übungen_Lösung.Rmd

Abschlussquiz

Fragen?